Expansion de requêtes pour la recherche d'information multilingue

نویسندگان

  • Benoît Gaillard
  • Jean Léon Bouraoui
  • Emilie Guimier De Neef
  • Malek Boualem
چکیده

1. Recherche d'information multilingue : approche par traduction des contenus La quantité d'information en ligne croît très rapidement, ainsi que le nombre de langues dans lesquelles ces contenus sont disponibles. En revanche, la complexité des requêtes reste limitée (2 à 3 mots en moyenne). Des traitements spécifiques s'avèrent donc nécessaires pour préciser le sens de certaines requêtes, ou au contraire pour en élargir la portée. L'Expansion de Requêtes (ER), par exemple, permet, en ajoutant des mots aux requêtes d'optimiser leur mise en relation avec les documents. Par ailleurs, la Recherche d'Information Multilingue ou CLIR (Cross Language Information Retrieval), permet d'accéder à des documents dont la langue est différente de celle dans laquelle la requête est formulée. les systèmes de CLIR ont souvent recours à la Traduction Automatique (TA), soit de la requête, soit des contenus. Des études comparatives montrent que l'approche par traduction des contenus est plus performante, mais les principaux systèmes de CLIR privilégient l'approche par traduction des requêtes. En effet, traduire un grand nombre de documents dans un grand nombre de langues serait trop coûteux. Nous proposons ici l'optimisation d'un prototype de CLIR dont les contenus indexés sont en quantité suffisamment faible pour que l'approche par traduction des contenus ait été choisie. Le vocabulaire employé dans les textes traduits automatiquement est réduit par rapport au vocabulaire spontané. Par exemple, " night club " peut se traduire en français par « discothèque » ou par « boîte de nuit ». Le système de traduction du prototype étudié ici traduit systématiquement " night club " par « boîte de nuit », un utilisateur n'aura par conséquent accès à aucun résultat s'il saisit la requête « discothèque ». Dans un corpus constitué de 51461 requêtes, nous avons mesuré le nombre de mots absents dans le corpus de contenus traduits, constitué des titres et

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Fusion de ressources hétérogènes pour la recherche d'information multilingue

RÉSUMÉ. Afin d’améliorer la recherche multilingue dans le moteur de recherche Sinequa Engine, nous avons intégré les connaissances multilingues du service Sensagent au module de requêtes du moteur de recherche Sinequa Engine. L’interface développée propose une extension de la requête aux choix de l’utilisateur par traduction des différents mots dans les langues sélectionnées. Pour limiter le gr...

متن کامل

Exploitation des Liens Sémantiques pour l'Expansion de Requêtes dans un Système de Recherche d'Information

RÉSUMÉ: Dans cet article, nous proposons d’exploiter des liens sémantiques entre concepts pour améliorer la recherche d’information. Un thesaurus électronique de langue générale est utilisé pour la reformulation des requêtes utilisateurs en procédant par un processus d’"expansion prudente" en amont d’un moteur de recherche. Ce processus, transparent à l’utilisateur, exploite d’abord la notion d...

متن کامل

Modèles d'information pour la recherche multilingue

RÉSUMÉ. Nous présentons dans cet article plusieurs extensions multilingues des modèles d’information, en particulier le modèle log-logistique (LL) et le modèle Smoothed Power Law (SPL), récemment introduits en recherche d’information (Clinchant et al., 2010). Ces extensions sont fondées sur (a) une généralisation de la notion d’information utilisée dans ces modèles, (b) une généralisation des v...

متن کامل

Les ontologies pour la recherche ciblée d'information sur le Web : une utilisation et extension d'OWL pour l'expansion de requêtes

HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...

متن کامل

Démarches sémantiques de recherche d'information sur le Web

Résumé : L’examen de différents projets de recherche visant à supporter les activités des membres d’une communauté à l’aide d’une mémoire collective met en évidence l’intérêt de capitaliser les requêtes formulées à la mémoire et plus généralement les savoir-faire experts d’une communauté en matière de recherche d’information. L’enjeu est de donner les moyens aux membres d’une communauté de réut...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2010